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摘 要 : 差分 隐私 模型 是 一 种 强 隐 私 模型 ， 用 隐私 参数 6 度量 隐私 保护 程度 及 噪声 量 ， 近 年 来 成 为 隐私 保护 领域 的 研 
完 热 点 。 但 是 隐私 参数 e 的 设置 只 能 依赖 于 实验 或 专业 人 士 经 验 , 限制 了 差分 隐私 模型 的 使 用 与 推广 。 针对 这 个 问题 ， 
基于 (pl1，p2)- 隐 私 模型 提出 一 种 启发 式 的 隐私 参数 8 设置 策略 (limit privacy breaches in differential privacy, LPBDP), 
分 析 隐 私 参数 e 与 (pl1，p2) 的 内 在 联系 ,实现 噪声 量 的 添加 由 (pl1，p2) 决 定 。LPBDP 通过 如 下 启发 式 原则 设置 隐私 参数 
8: 如 果 攻 击 者 关于 目标 受害 者 的 先 验 概率 小 于 阅 值 pl， 攻 击 者 得 到 差分 隐私 查询 策略 返回 的 加 骂 结 果 后 ， 关 于 目标 
受害 者 的 后 验 概 率 必 须 小 于 阔 值 p2。 实 验 表明 LPBDP 能 够 更 直观 地 设置 隐私 参数 e 以 满足 差分 隐私 约束 。 
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Abstract: The differential privacy model is a kind of strong privacy model, which uses the privacy parameter £ to measure the 
degree of privacy protection and the amount of noise. In recent years, the privacy model has become a hotspot in the field of 
privacy protection. However, the setting of the privacy parameter & can only depend on the experience of the lab or the 
professional experience, limiting the adoption and popularize of the differential privacy model. Aiming at this problem, a kind 
of heuristic privacy parameter £ setting strategy (limit privacy breaches in differential privacy, LPBDP) is proposed based on 
the (p1, p2) -privacy model. The intrinsic relationship between the privacy parameter £ and (p1, p2) is analyzed, and the addition 
of the noise quantity is determined by the parameters (p1, p2) . LPBDP sets the privacy parameter £ by the following heuristic 
principle: If the attacker's prior probability of the target victim is less than the threshold pl, then, the attacker's posterior 
probability of the victim of the target must be less than threshold p2. Experiments show that LPBDP can more visually set the 
privacy parameter £ to meet the differential privacy constraints. 
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0 alg 于 对 原始 数据 的 访问 是 数据 挖掘 的 前 提 ， 但 原始 数据 中 往往 
一 包含 个 人 的 隐私 信息 ， 因 此 随 之 而 来 的 是 个 人 对 隐私 保护 越 来 
随 着 计算 机 科学 、 网 络 以 及 存储 技术 的 发 展 ， 人 类 社会 收 越 关 注 。 目 前 ， 数 据 挖掘 领域 中 一 个 重要 的 研究 方向 是 准确 得 
集 、 存 储 的 数据 已 经 达到 了 前 所 未 有 的 程度 ， 数 据 的 爆炸 式 增 到 知识 的 同时 保证 数据 与 个 人 隐私 的 安全 。 
长 又 促进 了 数据 挖掘 的 巨大 发 展 ， 数 据 挖掘 技术 已 经 成 功 应 用 隐私 保护 数据 挖掘 的 出 现 就 是 为 了 解决 上 述 数据 挖掘 所 带 
于 社会 的 各 行 各 业 ， 如 : 医疗 、 社 交 网 络 、 在 线 搜索 等 领域 。 来 的 隐私 担忧 问题 。 隐 私 保护 数据 挖掘 的 目的 是 能 成 功 构建 各 
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录用 稿 


种 有 效 的 数据 挖掘 模型 而 不 会 泄露 输入 的 原始 数据 0。 具体 来 
说 ， 隐 私 保 护 数据 挖掘 需要 解决 如 下 两 个 关键 问题 : a) 如 何在 
数据 挖掘 的 过 程 中 保护 个 人 隐私 ; b) 如 何 确保 数据 或 结果 的 效 
用 性 。 目 前 ， 隐 私 保护 数据 挖掘 主要 集中 于 隐私 准则 的 设计 以 
及 同时 满足 上 述 两 个 关键 点 的 算法 。 

e- 差 分 隐私 模型 G33 不 对 攻击 者 的 背景 知识 作 任何 假设 , 是 
一 种 隐私 保护 力度 非常 强 的 隐私 模型 ， 它 的 基本 思想 是 发 布 对 
敏感 数据 的 分 析 结 果 之 前 ,添加 少量 噪声 以 满足 差分 隐私 要 求 ， 
噪声 量 由 分 析 函 数 或 分 析 过 程 的 敏感 度 以 及 隐私 参数 s 共同 决 
定 ， 与 具体 的 数据 库 类 型 及 其 大 小 无 关 。 

隐私 参数 8 是 差分 隐私 模型 的 重要 参数 ， 用 于 决定 噪声 的 
添加 量 以 及 度量 隐私 保护 的 程度 。 从 拉 普 拉 斯 机 制 与 指数 机 制 
中 可 以 看 出 ，g 越 大 ， 添 加 的 噪声 越 少 ， 相 反 ，s 越 小 ， 添 加 的 
噪声 越 多 。 但 差分 隐私 模型 在 决定 添加 噪声 量 的 多 少时 存在 两 
个 方面 的 问题 : 第 一 个 问题 是 隐私 参数 s 仅仅 限制 了 个 体 记录 
对 结果 的 影响 ， 而 不 是 限制 个 人 泄露 了 多 少 信 息 思 ， 将 导致 攻 
击 者 在 获得 随机 结果 后 很 容易 识别 个 人 的 敏感 信息 ;第 二 个 问 
题 是 隐私 参数 s 的 设置 只 能 依赖 于 实验 或 专业 人 士 的 经 验 ， 没 
有 更 加 直观 的 启发 式 参数 设置 方法 。 
针对 上 述 两 个 问题 ， 本 文 的 主要 贡献 如 

a) 为 限制 差分 隐私 模型 中 个 人 信息 的 泄露 , 基于 (ou p?)- 隐 
私 模型 的 思想 ， 提 出 一 种 新 的 攻击 模型 ; 


L 


一 中 
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其 中 ， |DAD'|=1 表示 数据 集 D 和 p 只 有 一 条 记录 不 同 ，s- 差 
分 隐私 保证 p 中 任意 一 条 记录 的 改变 对 算法 二 输出 的 影响 都 
不 会 过 于 明显 。 拉 普 拉 斯 机 制 与 指数 机 制 是 满足 差分 隐私 约束 
的 两 种 标准 方法 ， 它 们 均 依赖 于 函数 的 全 局 敏感 度 。 

Lee 等 人 加 提出 了 一 种 p- 差 分 可 识别 (differential 
identifiability) 的 概念 ，p- 差 分 可 识别 提供 与 e- 差 分 隐私 模型 一 
样 的 隐私 保护 力度 ， 它 的 优点 是 参数 o 限定 了 每 个 个 体 对 分 析 
结果 贡献 的 概率 估计 。p- 差 分 可 识别 通过 限定 攻击 者 对 个 体 的 
后 验 概率 将 隐私 参数 与 p 联系 在 一 起 ， 数 据 挖掘 者 或 数据 发 
布 者 可 以 基于 p- 差 分 可 识别 设置 隐私 参数 e， 添 加 的 噪声 限定 
攻击 者 在 获得 分 析 结 果 后 推断 目标 受害 者 敏感 值 的 概率 不 高 于 
Pp。 隐私 机 制 jy 满足 p- 差 分 可 识别 约束 ， 需 要 隐私 参数 8 5 p 
满足 如 下 关系 : 


Mp Q) 


其 中 : U 为 所 有 可 能 的 值 以 及 m=|U|， 在 假设 U 中 所 有 的 ;的 
先 验 概率 Pr[D = D' {让 都 相等 以 及 |U| 已 知 的 情况 下 , p- 差 分 
可 识别 与 差分 隐私 之 间 存 在 一 种 联系 ， 即 : 任意 的 p- 差 分 可 识 
别 隐私 机 制 都 满足 In(m-1)p/(1-p) -差分 隐私 约束 。 从 式 (2) 
中 得 出 ，p- 差 分 可 识别 依赖 于 个 体 的 先 验 分 布 ， 并 假设 预先 知 
道 所 有 可 能 的 值 U 以 及 |Ul。 然而 现实 中 , 个 体 的 先 验 分 布 一 般 
都 是 不 相等 的 ， 甚 至 根本 无 法 预先 获得 先 验 分 布 ， 并 且 不 一 定 


bo 找 出 隐私 参数 s 与 (p1,p2) 之 间 的 关系 ， 提 出 了 一 种 启发 
式 隐私 参数 设置 策略 。 


1 ”相关 工作 


针对 恶意 攻击 者 的 攻击 手段 ， 研 究 者 已 提出 众多 优秀 的 隐 
私 模 型 ， 如 针对 链接 攻击 的 大 匿名 模型 00， 针 对 属性 攻击 的 人 
多 样 化 模型 t2。 这 些 模 型 的 基本 思想 都 是 基于 数据 的 匿名 分 组 ， 
匿名 过 程 将 整个 数据 集 划 分 为 多 个 等 价 类 ， 每 个 等 价 类 中 至 少 
包含 大 条 记录 ， 恶 意 攻击 者 识别 个 体 的 概率 最 多 为 1/k。 

差分 隐私 (differential privacy)Ig 是 一 种 完全 独立 于 攻击 者 
背景 知识 和 计算 能 力 的 强 隐 私 概念 ， 近 年 来 已 成 为 研究 热点 。 
它 假设 攻击 者 拥有 任意 的 背景 知识 ， 无 论 特 定 个 体 记 录 是 否 在 
数据 集中 ， 对 该 数据 集 的 任意 计算 分 析 或 查询 的 结果 在 形式 上 
不 可 区 分 。 差 分 隐私 随机 算法 对 任意 两 个 邻近 数据 集 进行 操作 ， 
得 到 的 结果 几乎 是 一 致 的 。 形 式 化 来 说 , 已 知 p 为 任意 数据 集 ， 
设 与 p 只 相差 一 条 记录 的 近邻 数据 集 为 p' ， 差 分 隐私 要 求 任 


意 算法 对 p 与 pr 得 到 相同 结果 的 概率 的 比值 有 一 个 常数 上 界 。 


差分 隐私 模型 体系 中 最 基本 的 模型 是 s- 差 分 隐私 模型 ， 其 定义 
如 下 : 


完全 知道 U 的 值 。 因此 本 文 基于 (p1,p2)- 隐 私 模型 提出 一 种 独立 
于 这 种 先 验 分 布 的 隐私 参数 设置 策略 。 


2 ”基于 (p1, p2)- 隐 私 模 型 的 隐私 参数 设置 


2.1 ”隐私 模型 

文献 [10] 首 次 提出 (p1, p2)- 隐 私 模型 的 概念 ， 它 的 定义 为 : 
当 随 机 变量 式 的 值 x 的 先 验 概率 Pr[X = x] < p, 时, 通过 隐私 策 
Ws M 得 到 扰乱 结果 Rs Range(M (D) 后 , x 的 后 验 概率 更 新 为 
Pr[X 2x| M, (D) 2 RE p,» JW x 满足 (p1,p2)- 隐 私 模 型 约束 。 
其 中 ，0 <p «p, «1JFH. Pr[M,(D)=R]>0。 从 定义 上 看 , (pi, 
有 -隐私 模型 并 不 依赖 于 先 验 概率 , 它 意 味 着 先 验 概率 不 超过 pi1， 
则 后 验 概率 必须 小 于 pz, p1 与 pz 可 以 自 定义 不 依赖 于 任何 背景 
知识 。 
22 ”攻击 模型 

假设 攻击 者 的 背景 知识 包含 所 有 可 能 的 值 y 以 及 数据 库 
DD 中 除了 第 个 元 组 以 外 其 他 所 有 元 组 的 信息 ， 也 就 是 p 。 
另外 攻击 者 还 知道 隐私 机 制 M 的 所 有 细节 以 及 添加 噪声 所 服 
从 的 概率 密度 函数 。 攻 击 者 为 了 推断 第 n 个 元 组 的 值 ， 在 得 到 
隐私 机 制 M 返回 的 结果 前 攻击 者 以 相等 的 概率 WU 猜测 U 中 


e -差分 隐私 (differential privacy)l9l; 随机 算法 了 满足 & - 差 


分 隐私 约束 , 如 果 任 意 的 两 个 邻近 数据 集 D 和 p' ,|DAD'|=1， 
对 于 所 有 输出 数据 集 O ， 下 列 不 等 式 成 立 : 
Pr|I(D)=olsepPrH(CD)=o] 0) 


所 有 的 值 都 有 可 能 为 第 二 个 元 组 的 值 ， 用 户 提交 查询 了 给 隐私 
机 制 M， 得 到 扰乱 的 结果 为 : R=MAD)， 则 攻击 者 猜测 第 n 个 
元 组 的 值 为 i 的 概率 为 


r(i) »Pr[w- D|M, (D)- R] 6) 
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如 果 工 (i) > p, ， 则 隐私 泄露 了 。 


2.3 ”攻击 模型 举例 

下 面 通过 一 个 例子 
制 M 满足 差分 隐私 约束 , 但 
猜测 个 体 的 值 。 令 S 为 求 平均 值 
D ={1,2,3,10}> p 中 的 值 都 来 自 U 
已 经 知道 D' = (12,3) 
1,2,3,5,10, 得 知 了 的 敏感 度 为 : 
数 e=2，, 且 攻击 者 提交 一 
R=5.041> WRI y 中 的 
Pr[X =x|M,(D)= 


HIR 上 述 


术 攻 击 模型 的 过 才 程 ， 尽管 查询 机 
攻击 者 依然 可 以 以 很 高 的 后 验 概率 


[ut 


的 查询 函数 ， 给 定数 据 集 
={1,2,3,5,10}， 假 设 攻击 者 


想 推 断 第 4 个 值 ， 由 于 第 4 个 值 可 能 为 
16/4—7/4=9/4。 
个 求 平均 值 的 请 求 后 得 到 的 返 
其 中 一 个 , 攻击 者 计算 后 验 概率 
R] ， 如 表 1 所 示 。 


设 差分 隐私 参 


nu 


表 1 攻击 者 的 猜测 值 
猜测 ”真实 ”添加 验 
猜测 值 Pr[M(D:)]=5.401 
数据 集 ”均值 ”噪声 
1 1234 7/4 329 0.0238 0.0751 
2 1232 84 3401 0.0216 0.0682 
3 123,3 9/4 279 0.0372 0.1174 
5 123,5 114 2291 0.0580 0.1831 
10 — 123,40 164 1.041 0.1762 0.5562 
以 可 能 的 值 10 为 例 给 出 后 验 概 率 的 计算 过 程 
Pr[ X -10|M (D) -5 2 
| Pr[X =10]- und =5.401|X -10] 
> Pr[X =i} us (D,)=5.401 | 4) 
| Pr[X -10]-Pr[ M, ( " Raul 
Enix -i|-Pr[ M, (D.) 25.401 
返回 的 值 5.401， 计 算 概 率 


其 中 : 


D={Dwi。 首 先 基 于 


i 


Pr| M, (D,) - 5.401 | ， 因 为 mean(D, ) —-4 » 差分 隐私 机 秆 


真实 值 添 加 的 噪声 量 为 :，R-mean(D,,)=1.041 ， 可 以 求 出 


1M 给 


4= 仿 =2=1.125， 则 
E 8 
Pr| M (D,) - 5.401] 
zc Who .i 6) 
21.125 
- 0.1762 
假设 vy 中 值 的 先 验 概 率 为 p =0.2 JJ 
Pr[ X 2 10|M (D) 25401 
Pr[ M (D, es © 
PPr[ mM,(D )=5.401| 
=0.5562 


如 果 p, =0.5 ， 则 差分 隐私 机 币 


| jy 不 满足 (o, p.) -隐私 约 


值 为 : 


hi 


J| J 
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2.4 LPBDP 的 设计 与 实现 
本 文 基于 (pi,p,) -隐私 模型 提出 


RV BAI 
iInaXIVv 合 作 期 


的 隐私 参数 设 


LPBDP(limit privacy breaches in differential privacy) 的 基本 思想 


是 设置 隐私 参数 s 使 得 差分 隐私 机 制 


满足 (p, p.) -隐私 约束 ， 
找 出 差分 隐私 参数 = 与 (p,o,) 之 间 的 关系 , 使 得 e 的 设置 不 再 


«nr 


依赖 于 经 验 或 实验 ， 而 是 可 以 根据 (p,p,) 进行 启发 式 设置 。 
为 满足 (p,p,) -隐私 约束 ， 文 献 [10] 提 出 一 种 增幅 
(amplification) 方 法 。 该 方法 的 定义 如 下 : 隐私 机 制 y 对 于 所 有 
的 结果 Re M,(D) 最 多 是 y -增幅 的 ， 如 果 式 (7) 成 立 : 
oa ha WN 0) 
~ Pr|D, si” 


其 中 : y>1, D={D'vilieU},D,={D 


如 果 隐 私 机 制 M 返回 的 结果 是 R 


'uj|jeu]- 


， 那 么 任意 一 个 数据 集 


D={D'viliev} 都 有 可 能 返回 R。 因 此 , 基于 拉 普 拉 斯 机 制 得 
到 如 下 等 式 : 
M 
p[D >R] 5; 
TE M (8) 
2À 
|e-rio;)HR- (0) 
=e å 
习 为 |/(D)- A(D<A， 应 用 三 角 不 等 式 得 到 
jr a-rt»;) A 
PID >R] . à <e? (9) 
p| D, >R| 
下 面 的 定理 09 给 出 了 y -增幅 与 (p,p,) -隐私 模型 之 间 的 


定理 1 如 果 se -差分 隐私 机 制 yy 


1 一 
满足 y -增幅 , 其 中 y< 全 . P 


对 于 所 


的 响应 值 R 都 


则 jy 必定 满足 (ee) -隐私 


p, l- 
约束 。 
基于 定理 1， 可 以 找 出 差分 隐私 参数 = 与 (p,p,) 之 间 的 关 
系 。 根 据 式 (9) 得 到 : 
p|D, > R] _ P, l-P 10 
p| D, >R| nd P 1- p, 9 
AJ 0«p,«p,«1. ， 两 边 同 时 取 自 然 对 数 得 到 
<n "m 
4 p, 1-5, 
PD OMEN MES 
«(21-4 (12) 
p, 1-p, 
由 此 得 到 一 个 重要 的 结果 ， 对 于 任意 的 攻击 者 ， 如 果 设 置 
EDERN e-n 22), nto 拉 斯 分 布 的 参数 
p, 1-5, 
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azan 8. 1-4.) (13) 
p, 1-5, 

那么 差分 隐私 机 制 yy 满足 (p,,p,) -隐私 约束 。 又 由 于 拉 普 
拉 斯 分 布 要 求 4>0， 则 有 


Eee (14) 
p, l-p, 
P 1-P (15) 
P, l-p, 


最 后 得 到 : pao pi, 意味 着 保护 数据 库 中 个 体 的 隐私 的 后 验 
概率 p, 必须 超过 它 的 先 验 概率 D， 和 否则 没有 任何 意义 。 这 个 结 
论 显然 是 符合 实际 的 ， 如 果 对 个 体 实 施 隐私 保护 的 概率 不 能 超 
过 它 的 先 验 概率 ， 那 就 失去 了 保护 的 意义 。 
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注意 到 ， 如 果 设 置 p =1/m， 其 中 m=|U|， 就 能 得 到 : 


ji^ 
1- p, 
意味 着 p -差分 可 识别 只 是 本 文 提 出 方法 LPBDP 的 一 个 特 


(16) 


3 ”实验 结果 与 分 析 


本 节 首 先 对 比 LPBDP 与 p- 差 分 可 识别 的 区 别 与 联系 ， 如 
表 2 所 示 ; 其 次 通过 实验 分 析 了 LPBDP 的 启发 性 和 语义 性 。 
一 方面 ， 从 表 2 中 可 以 看 出 ， 本 文 提 出 的 LPBDP 方法 同 
样 满足 差分 隐私 要 求 ， 且 比 p- 差 分 可 识别 在 先 验 知识 上 更 有 优 
势 ，LPBDP 基本 上 不 需要 假设 任何 先 验 知识 ， 具 有 更 好 的 适应 性 。 


表 2 LPBDP 与 0- 差分 可 识别 的 区 别 与 联系 


区 别 联系 
攻击 模型 先 验 知识 差分 隐私 关联 
先 验 概率 大 于 pı p 
LPBDP B pi CRAS Sc Brick A ENRE) 满足 
后 验 概 率 小 于 p2 
数据 集 7 中 存在 的 每 个 值 ; 当 p =1/m， 其 中 m=|U| 时 ， p -差分 可 识别 为 LPBDP 
0- 差 分 数据 集 的 大 小 |U|; 的 特例 
后 验 概率 小 于 p 满足 
可 识别 每 个 值 先 验 概 率 相等 且 都 为 随机 猜测 
ies yu] 。 
另 一 方面 ， 通 过 实验 分 析 LPBDP 的 实际 应 用 ,为 了 与 p- ” 所 需 的 噪声 量 越 多 。 jp -差分 可 识别 中 将 所 有 值 的 先 验 概率 都 设 
差分 可 识别 进行 比较 ， 实 验 中 采用 同样 的 聚集 查询 函数 ， 即 求 为 随机 猜测 概率 V/v | , 对 于 有 的 先 验 概率 大 于 随机 猜测 概率 


平均 值 : mean， 实 验 数据 为 来 自 UCI 的 Adult 数据 库 ， 包 含 
48,842 条 记录 ， 共 有 14 个 属性 ， 其 中 9 个 分 类 属性 ，5 个 数值 
型 属性 。 在 本 文中 只 用 到 其 中 3 个 数值 型 属性 。 表 3 描述 了 
Adult 数据 库 的 特点 。 


表 3 Adult 数据 库 


属性 最 大 值 ”最 小 值 ”敏感 度 ”随机 猜测 概率 
age(AG) 90 17 0.0015 0.0137 
education-num(EN) 16 1 0.0031 0.0101 
hourse-per-week(HW) 99 1 0.0020 0.0625 


为 了 决定 所 添加 噪声 的 拉 普 拉 斯 分 布 函数 ， 必 须 求 平均 值 
函数 的 敏感 度 : af 。 例 如 ,假设 攻击 者 知道 数据 库 中 除 一 条 记 
录 外 其 他 所 有 记录 的 年 龄 ,那么 攻击 猜测 值 的 范围 为 1~99。 所 
以 ， 函 数 的 敏感 度 为 


90 一 17 
Af -|f(D,) f(D,) m 48842. 


攻击 者 随机 猜测 的 概率 为 JVIZ| ， 如 表 3 中 RG (random 
guess) 所 示 。 

LPBDP 表明 ， 噪 声 添加 量 不 仅 受 先 验 概率 影响 ， 也 受 后 验 
概率 影响 。 本 文 首先 通过 实验 验证 了 添加 的 噪声 量 受 先 验 概率 
影响 的 情况 ， 设 置 后 验 概率 为 : p, = 509% 。 要 求 差分 隐私 机 种 
满足 (p,0.5) -隐私 要 求 ， 其 中 p =1% 10% 。 如 图 1 rz. WE 
声 添 加 量 (4) 随 着 先 验 概率 的 增 大 而 增 大 。 意味 着 p,- p Bl, 


= 0.0015 (17) 


E 


的 值 ， 所 添加 的 噪声 量 不 能 满足 (jp,p, ) -隐私 模型 约束 。 


图 1 先 验 概 率 对 噪声 添加 量 的 影响 


为 了 验证 LPBDP 的 实用 性 ， 对 4 个 属性 分 别提 交 了 1000 
次 求 平均 值 的 查询 请 求 , 图 2~4 给 出 了 p, p, 对 噪声 率 的 影响 ， 
噪声 率 的 计算 为 


R- f(D) 
U nge 
其 中 及 为 扰乱 后 的 查询 结果 ,= max- min 是 每 个 属性 域 上 
值 的 区 间 。Q1 为 第 一 个 四 分 位 数 ,Q3 为 第 3 四 分 位 数 , Q3-01 
为 分 位 数 极 差 。 图 3~4 表明 ， 所 有 的 响应 值 都 集中 在 真实 值 的 
附近 。 当 固定 og, HOA p, ， 需 要 更 多 的 噪声 以 满足 (jp,p,)- 
隐私 约束 ， 这 与 p -差分 可 识别 是 相同 的 。 当 固定 p, =0.2 ， 从 
图 3、4 中 可 以 看 出 (从 左 至 右 )， 当 po 增 大 时 ， 1 随 之 变 大 ， 

因此 所 需要 的 噪声 也 增多 。 


Noise ratio(NR ) = (18) 
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0.02 0.0139 


0.05 0.02 0.0139 


0.02 0.0102 


(c) p1=0.09 


0.05 0.02 0.0102 


(c) p1=0.09 


5 研究 了 隐私 参数 e 对 差分 隐私 的 影响 。 图 5 表明 
LPBDP 能 达到 e -差分 隐私 一 样 的 效果 。 但 是 对 于 e -差分 隐私 
而 言 ， 如 何 设置 s 是 个 大 问题 ， 大 多 通过 经 验 或 实验 设置 。 而 
LPBDP 设置 隐私 参数 具有 更 好 的 语义 ， 必 须 满足 (jp,p, ) -隐私 
约束 。 


4 ”结束 语 


针对 差分 模型 中 的 隐私 参数 设置 问题 ， 以 往 的 设置 方法 主 
要 基于 实验 或 相关 专家 的 经 验 ， 本 文 提出 了 一 种 启发 式 的 差分 


iy 合作 期 于 


Chi 
欧阳 佳 ， 竺 人 隐私 参数 设置 策略 


= Q3-Q2 

* Q2-Q1 
"01 

k Min Outlier 


0.02 0.0139 


(d) p1=0.19 


0.05 0.02 0.0139 


02 01 2005 0.02 0.0102 
2 


01 0.05 0.02 0.0102 
p2 


(d) p1-0.19 


图 3  Hours-per-week 的 噪声 率 


隐私 参数 设置 策略 。p -差分 可 识别 是 另 一 种 差分 隐私 参数 的 设 


ERIK, 然而 该 方法 依赖 于 如 下 两 个 假设 : (1) 知道 每 个 值 的 先 
给 概率 ， 并 假设 预先 知道 所 有 可 能 


的 值 U 以 及 |U|; Q) 所 有 可 


能 值 的 先 验 概率 都 是 相等 的 。 然 而 ， 部 分 应 用 场景 无 法 满足 上 
述 两 个 假设 条 件 ， 本 文 提 出 的 方法 弥补 了 这 一 缺陷 ， 基 于 
(0, o.) -隐私 模型 提出 一 种 新 的 隐私 参数 设置 策略 LPBDP， 该 


策略 的 优势 在 于 (po. p.) -隐私 模型 
要 知道 |U|， 


4 并 不 依赖 于 先 验 概率 且 不 需 


H. LPBDP 同样 满足 差分 隐私 约束 。 
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0.08 0.07 0.06251 


0.08 0.07 0.06251 


10.135 9.503 4.669 2.582 
E 


(a) Age 


1.325 0.502 0.0123 


KA 


11.513 6.805 4.669 2.582 1.325 
[3 


0.502 0.0123 


(c) Education Number 


5 差分 隐私 的 噪声 率 


S 
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